O grande volume de informações falsas que circulam nas redes sociais motivaram dois alunos de mestrado do Departamento de Computação da UEL (Universidade Estadual de Londrina) a desenvolver uma inteligência artificial capaz de classificar notícias em três categorias: falsas, verdadeiras e irônicas. As legítimas contêm apenas informações verdadeiras, as falsas contêm informações inventadas e as irônicas misturam informações verdadeiras ou falsas com um tom de humor. A inteligência artificial aprendeu a distinguir os três tipos de notícias a partir da leitura de bancos de dados contendo mais de 10 mil notícias de política. A taxa de acerto chega a 95% para notícias em português.

O professor Sylvio Barbon Junior e os alunos Janaína de Morais e Hugo Abonizio; índice de acerto da pesquisa chega a 95% nos textos em português
O professor Sylvio Barbon Junior e os alunos Janaína de Morais e Hugo Abonizio; índice de acerto da pesquisa chega a 95% nos textos em português | Foto: Mie Francine Chiba

Um dos grandes desafios da análise de textos por computadores está no fato que esse tipo de material contém dados não estruturados, ou seja, que não estão organizados em tabelas, que podem ser facilmente lidos por máquinas. Mas com base em um domínio específico, formado por 10 mil notícias de política já classificadas e obtidas de outras pesquisas científicas, a inteligência artificial pôde extrair 21 características capazes de identificar as notícias em legítima, falsa ou irônica. As características foram extraídas por meio da estilometria, que é o estudo das características do texto a partir do tamanho das palavras ou o número de palavras por sentenças, por exemplo.

Mie Francine Chiba

Os pesquisadores, Hugo Queiroz Abonizio e Janaina Ignácio de Morais, adicionaram outras quatro características à inteligência: diversidade de classes gramaticais; presença de nomes de entidades, pessoas ou marcas conhecidas; frequência de palavras fora de um domínio comum, como o da Política; e frequência de aspas no texto. Outra contribuição da pesquisa foi adicionar uma nova classificação de notícias à inteligência - as notícias irônicas. Segundo orientador da pesquisa, o professor Sylvio Barbon Junior, a literatura existente costuma classificar as notícias apenas como falsas ou legítimas.

O algoritmo conseguiu identificar com 95% de acerto as notícias falsas, legítimas ou irônicas na língua portuguesa. Nas línguas inglesa e espanhola, a taxa de acerto foi de 85%. Na literatura existente, o índice chega a apenas 70%, em média. Para que essa porcentagem fique mais próxima dos 100%, conforme explica Barbon Junior, é preciso estudar novas características que possam surgir e aumentar a base de notícias.

Segundo o orientador, o estudo tinha o objetivo de entender as características das notícias falsas, verdadeiras e irônicas, a metodologia para identificá-las e disseminar essas informações. Para levar os resultados da pesquisa ao mercado, transformando-a em uma ferramenta, é preciso fazer uma parceria com uma empresa do mercado, ou criar uma startup, por exemplo. Além disso, deve-se considerar que a pesquisa analisa apenas textos, mas identificar uma notícia falsa também pode envolver a análise de fotos e do código-fonte das páginas, por exemplo. Para que seja aplicada a notícias de outros assuntos, a inteligência também precisa ser treinada dentro de domínios específicos.

Na visão do orientador, a pesquisa trouxe duas grandes contribuições. Uma delas foi tirar as informações enganosas da “caixa preta”, revelando as suas características com base em 10 mil notícias. A outra foi criar a possibilidade de disponibilização de uma ferramenta para a identificação de notícias falsas, irônicas ou legítimas. Com a disseminação da desinformação, usuários e anunciantes se mostram cautelosos em relação às redes às quais estão vinculados, algo que torna a identificação de notícias falsas importante para o mercado.

Os estudantes já elaboraram dois artigos relacionados à pesquisa, que foram apresentados no mês de maio, no Simpósio Brasileiro de Sistemas de Informação, em Aracaju (SE). Um deles, produzido pela estudante Janaina Ignácio de Morais em parceria com o professor André Azevedo, do Departamento de Comunicação, recebeu menção honrosa na principal categoria do evento, chamada de "Main Track".

De acordo com Barbon Junior, os próximos passos da pesquisa envolvem identificar trechos das notícias que as caracterizam como legítimas, falsas ou irônicas, e descobrir o que faz uma notícia ser percebida pelo leitor como tal.